{
 "cells": [
  {
   "cell_type": "code",
   "outputs": [],
   "source": [
    "import re\n",
    "import pandas as pd"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-16T06:53:18.542171Z",
     "start_time": "2024-06-16T06:53:18.531981600Z"
    }
   },
   "id": "853d0c07aee63569",
   "execution_count": 14
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "id": "initial_id",
   "metadata": {
    "collapsed": true,
    "ExecuteTime": {
     "end_time": "2024-06-16T06:13:16.777316200Z",
     "start_time": "2024-06-16T06:13:16.397194400Z"
    }
   },
   "outputs": [],
   "source": [
    "\n",
    "\n",
    "# 读取CSV文件\n",
    "df1 = pd.read_csv('../data/job_data.csv')\n",
    "df2 = pd.read_csv('../data/nanchang_error.csv')\n",
    "df3 = pd.read_csv('../data/nanjing_error.csv')\n",
    "df4 = pd.read_csv('../data/output0.csv')\n",
    "df5 = pd.read_csv('../data/output1.csv')\n",
    "df6 = pd.read_csv('../data/output2.csv')\n",
    "df7 = pd.read_csv('../data/output3.csv')"
   ]
  },
  {
   "cell_type": "code",
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "  company_brief_address            company_detailed_address hr_name  \\\n",
      "0                东莞-道滘镇       东莞-道滘镇广东微科商用机器有限公司卡德城智创产业园办公楼     肖先生   \n",
      "1                上海-静安区              上海-静安区静安区688广场写字楼2206室     庄女士   \n",
      "2                    杭州                        杭州玫琳凯(14号大街)     李女士   \n",
      "3                杭州-滨江区            杭州-滨江区夕尔控股江虹路611号上峰电商产业园     尤先生   \n",
      "4                东莞-道滘镇  东莞-道滘镇广东微科商用机器有限公司道滘镇南阁东路112号卡德城园区     肖先生   \n",
      "\n",
      "                                            job_tags  \\\n",
      "0  ['10年以上', '统招本科', '自动化研发', '机械机电', '包装自动化', '塑...   \n",
      "1               ['1-3年', '本科', '德语', '白班客服', '在线客服']   \n",
      "2                                    ['5-10年', '本科']   \n",
      "3                                    ['5-10年', '本科']   \n",
      "4        ['10年以上', '大专', '商超业务', '超市设备销售', '超市业务营销']   \n",
      "\n",
      "                                job_title  job_salary    company_name  \\\n",
      "0                               自动化设计研发经理      20-40k    广东微科商用机器有限公司   \n",
      "1                              海外游戏运营（德语）      10-15k  优泛文化传媒(上海)有限公司   \n",
      "2  Senior Staff Process Engineer高级主管工艺工程师        薪资面议             玫琳凯   \n",
      "3                         商品运营专家(A247732)  25-40k·14薪        Babycare   \n",
      "4                              国内百强超市业务总监       6-18k    广东微科商用机器有限公司   \n",
      "\n",
      "                                       company_intro company_status  \\\n",
      "0        公司位于粤港澳大湾区智造中心-东莞，公司研发及经营面积10000平方米；属于国家...             其他   \n",
      "1  优泛文化传媒（上海）有限公司，专注于动漫IP改编的移动游戏开发和全球发行业务。公司总部设在东...             A轮   \n",
      "2  1963年，玫琳凯·艾施女士秉持帮助他人获得个人成长与经济成功的初衷，在美国德克萨斯州达拉斯...          融资未公开   \n",
      "3  Babycare是设计师创立的母婴品牌，秉持「为爱 重新设计」的品牌理念，不断发现并改变行业...             B轮   \n",
      "4        公司位于粤港澳大湾区智造中心-东莞，公司研发及经营面积10000平方米；属于国家...             其他   \n",
      "\n",
      "  company_size company_type                                    job_description  \n",
      "0       50-99人        机械/设备  一、岗位职责：\\n1、负责有关塑料袋材质的包装、打开、打包等自动化设备的研发、设计、开发、整...  \n",
      "1        1-49人           游戏  工作内容：\\n负责协助游戏在海外的日常运营工作；\\n1.协助项目组研发和运营人员，回复和处理...  \n",
      "2     500-999人     食品/饮料/酒水  Purpose of Job\\nWithout appreciable direction,...  \n",
      "3   2000-5000人         电子商务  职责描述：\\n1、结合公司商品策略，制定符合门店的商品策略，对销售GMV及经营利润负责；\\n...  \n",
      "4       50-99人        机械/设备  一、岗位职责：\\n国内百强超市业务开发：负责微科产品在国内百强超市的推广、公关、洽谈、签约、...  \n"
     ]
    }
   ],
   "source": [
    "# 将所有DataFrame按行合并\n",
    "combined_df = pd.concat([df1, df2, df3, df4, df5, df6, df7], axis=0)\n"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-16T06:14:28.690317400Z",
     "start_time": "2024-06-16T06:14:28.637128900Z"
    }
   },
   "id": "84a13df150229090",
   "execution_count": 6
  },
  {
   "cell_type": "code",
   "outputs": [],
   "source": [
    "combined_df.to_csv('all_data.csv', index=False)"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-16T06:15:02.910828300Z",
     "start_time": "2024-06-16T06:15:02.628063600Z"
    }
   },
   "id": "d1a4c53a68a52ce9",
   "execution_count": 8
  },
  {
   "cell_type": "code",
   "outputs": [],
   "source": [
    "combined_df=pd.read_csv('all_data.csv')"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-16T08:55:48.480169300Z",
     "start_time": "2024-06-16T08:55:48.202133900Z"
    }
   },
   "id": "36b66292c6ffc0d0",
   "execution_count": 44
  },
  {
   "cell_type": "code",
   "outputs": [],
   "source": [
    "# 识别含有NaN值的行\n",
    "rows_with_nan = combined_df[combined_df.isnull().any(axis=1)]"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-16T08:56:54.394497900Z",
     "start_time": "2024-06-16T08:56:54.357181600Z"
    }
   },
   "id": "2d121ae7893a701a",
   "execution_count": 45
  },
  {
   "cell_type": "code",
   "outputs": [
    {
     "data": {
      "text/plain": "      company_brief_address     company_detailed_address hr_name  \\\n8864               南昌西湖区系马桩        南昌西湖区南昌市松柏小学松柏路松柏小学对面     操巧文   \n8866               南昌西湖区朝阳洲               南昌西湖区滨江壹号环球中心1     张女士   \n8867                     南昌      南昌西湖区天童教育素质成长中心(西湖分校)2楼     毛女士   \n8869               南昌西湖区火车站       南昌西湖区百力佳·数字经济产业园4楼4090    欧阳先生   \n8871                     南昌        南昌西湖区中国银行(南昌市广场支行)东湖区     徐禹韩   \n...                     ...                          ...     ...   \n12817                  招若干人  广东省-深圳 龙华区观澜街道桂花社区桂花路109号1楼      匿名   \n12818                  招若干人  广东省-深圳 龙华区观澜街道桂花社区桂花路109号1楼      匿名   \n12820                  招若干人  广东省-深圳 龙华区观澜街道桂花社区桂花路109号1楼      匿名   \n12865                  招若干人  广东省-深圳 龙华区观澜街道桂花社区桂花路109号1楼      匿名   \n12868                  招若干人  广东省-深圳 龙华区观澜街道桂花社区桂花路109号1楼      匿名   \n\n               job_tags    job_title job_salary   company_name  \\\n8864     ['1-3年', '本科']     初高中数理化老师       4-9K           华优教育   \n8866     ['1年以内', '高中']         电商文员       5-8K            御鹿汇   \n8867     ['经验不限', '大专']  招生老师包住宿五险一金      5-10K         天童艺术培训   \n8869     ['1-3年', '大专']        网络工程师       6-9K   南昌锐鹏网络科技有限公司   \n8871     ['经验不限', '本科']         人资总监     20-25K       某房地产中介公司   \n...                 ...          ...        ...            ...   \n12817  不限 ｜广东省-深圳 ｜招若干人       五金模具技工         面议  深圳市凯帝五金制品有限公司   \n12818  不限 ｜广东省-深圳 ｜招若干人         折弯学徒         面议  深圳市凯帝五金制品有限公司   \n12820  不限 ｜广东省-深圳 ｜招若干人         折弯技工         面议  深圳市凯帝五金制品有限公司   \n12865  不限 ｜广东省-深圳 ｜招若干人        钣金工程师         面议  深圳市凯帝五金制品有限公司   \n12868  不限 ｜广东省-深圳 ｜招若干人          冲压工         面议  深圳市凯帝五金制品有限公司   \n\n                                           company_intro company_status  \\\n8864                                                 NaN            未融资   \n8866                                                 NaN            NaN   \n8867                                                 NaN            NaN   \n8869                                                 NaN            NaN   \n8871                                                 NaN            NaN   \n...                                                  ...            ...   \n12817  企业简介： 深圳市凯帝五金制品有限公司座落与观澜美丽的高尔夫球场附近，厂房1500平方，员工...              无   \n12818  企业简介： 深圳市凯帝五金制品有限公司座落与观澜美丽的高尔夫球场附近，厂房1500平方，员工...              无   \n12820  企业简介： 深圳市凯帝五金制品有限公司座落与观澜美丽的高尔夫球场附近，厂房1500平方，员工...              无   \n12865  企业简介： 深圳市凯帝五金制品有限公司座落与观澜美丽的高尔夫球场附近，厂房1500平方，员工...              无   \n12868  企业简介： 深圳市凯帝五金制品有限公司座落与观澜美丽的高尔夫球场附近，厂房1500平方，员工...              无   \n\n        company_size company_type  \\\n8864           0-20人      培训/辅导机构   \n8866          20-99人        进出口贸易   \n8867        100-499人      培训/辅导机构   \n8869           0-20人      通信/网络设备   \n8871           0-20人     房地产中介/租赁   \n...              ...          ...   \n12817  企业规模：100-499人   企业行业：机械/制造   \n12818  企业规模：100-499人   企业行业：机械/制造   \n12820  企业规模：100-499人   企业行业：机械/制造   \n12865  企业规模：100-499人   企业行业：机械/制造   \n12868  企业规模：100-499人   企业行业：机械/制造   \n\n                                         job_description  \n8864   1、热爱教育\\n2、熟悉教材\\n3、善于创新\\n岗位要求：['教师', '初中教育', '高...  \n8866   1、上链接 \\n2、淘宝页面\\n3、上架下架\\n岗位要求：['服饰/鞋帽/箱包', '网店'...  \n8867   职位描述\\n【岗位职责】：\\n1、通过邀约话术获得家长的认可，并及时邀约到校区参加体验课；\\...  \n8869   职位描述:\\n1、交换机调试、网络维护、通信、相关专业;会Linux系统\\n2、工作积极主动...  \n8871   工作职责：\\n1、建立并持续完善规范的城市分公司管理制度体系，并做好城市分公司日常执行、检查...  \n...                                                  ...  \n12817                                                NaN  \n12818                                                NaN  \n12820                                                NaN  \n12865                                                NaN  \n12868                                                NaN  \n\n[1173 rows x 12 columns]",
      "text/html": "<div>\n<style scoped>\n    .dataframe tbody tr th:only-of-type {\n        vertical-align: middle;\n    }\n\n    .dataframe tbody tr th {\n        vertical-align: top;\n    }\n\n    .dataframe thead th {\n        text-align: right;\n    }\n</style>\n<table border=\"1\" class=\"dataframe\">\n  <thead>\n    <tr style=\"text-align: right;\">\n      <th></th>\n      <th>company_brief_address</th>\n      <th>company_detailed_address</th>\n      <th>hr_name</th>\n      <th>job_tags</th>\n      <th>job_title</th>\n      <th>job_salary</th>\n      <th>company_name</th>\n      <th>company_intro</th>\n      <th>company_status</th>\n      <th>company_size</th>\n      <th>company_type</th>\n      <th>job_description</th>\n    </tr>\n  </thead>\n  <tbody>\n    <tr>\n      <th>8864</th>\n      <td>南昌西湖区系马桩</td>\n      <td>南昌西湖区南昌市松柏小学松柏路松柏小学对面</td>\n      <td>操巧文</td>\n      <td>['1-3年', '本科']</td>\n      <td>初高中数理化老师</td>\n      <td>4-9K</td>\n      <td>华优教育</td>\n      <td>NaN</td>\n      <td>未融资</td>\n      <td>0-20人</td>\n      <td>培训/辅导机构</td>\n      <td>1、热爱教育\\n2、熟悉教材\\n3、善于创新\\n岗位要求：['教师', '初中教育', '高...</td>\n    </tr>\n    <tr>\n      <th>8866</th>\n      <td>南昌西湖区朝阳洲</td>\n      <td>南昌西湖区滨江壹号环球中心1</td>\n      <td>张女士</td>\n      <td>['1年以内', '高中']</td>\n      <td>电商文员</td>\n      <td>5-8K</td>\n      <td>御鹿汇</td>\n      <td>NaN</td>\n      <td>NaN</td>\n      <td>20-99人</td>\n      <td>进出口贸易</td>\n      <td>1、上链接 \\n2、淘宝页面\\n3、上架下架\\n岗位要求：['服饰/鞋帽/箱包', '网店'...</td>\n    </tr>\n    <tr>\n      <th>8867</th>\n      <td>南昌</td>\n      <td>南昌西湖区天童教育素质成长中心(西湖分校)2楼</td>\n      <td>毛女士</td>\n      <td>['经验不限', '大专']</td>\n      <td>招生老师包住宿五险一金</td>\n      <td>5-10K</td>\n      <td>天童艺术培训</td>\n      <td>NaN</td>\n      <td>NaN</td>\n      <td>100-499人</td>\n      <td>培训/辅导机构</td>\n      <td>职位描述\\n【岗位职责】：\\n1、通过邀约话术获得家长的认可，并及时邀约到校区参加体验课；\\...</td>\n    </tr>\n    <tr>\n      <th>8869</th>\n      <td>南昌西湖区火车站</td>\n      <td>南昌西湖区百力佳·数字经济产业园4楼4090</td>\n      <td>欧阳先生</td>\n      <td>['1-3年', '大专']</td>\n      <td>网络工程师</td>\n      <td>6-9K</td>\n      <td>南昌锐鹏网络科技有限公司</td>\n      <td>NaN</td>\n      <td>NaN</td>\n      <td>0-20人</td>\n      <td>通信/网络设备</td>\n      <td>职位描述:\\n1、交换机调试、网络维护、通信、相关专业;会Linux系统\\n2、工作积极主动...</td>\n    </tr>\n    <tr>\n      <th>8871</th>\n      <td>南昌</td>\n      <td>南昌西湖区中国银行(南昌市广场支行)东湖区</td>\n      <td>徐禹韩</td>\n      <td>['经验不限', '本科']</td>\n      <td>人资总监</td>\n      <td>20-25K</td>\n      <td>某房地产中介公司</td>\n      <td>NaN</td>\n      <td>NaN</td>\n      <td>0-20人</td>\n      <td>房地产中介/租赁</td>\n      <td>工作职责：\\n1、建立并持续完善规范的城市分公司管理制度体系，并做好城市分公司日常执行、检查...</td>\n    </tr>\n    <tr>\n      <th>...</th>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n    </tr>\n    <tr>\n      <th>12817</th>\n      <td>招若干人</td>\n      <td>广东省-深圳 龙华区观澜街道桂花社区桂花路109号1楼</td>\n      <td>匿名</td>\n      <td>不限 ｜广东省-深圳 ｜招若干人</td>\n      <td>五金模具技工</td>\n      <td>面议</td>\n      <td>深圳市凯帝五金制品有限公司</td>\n      <td>企业简介： 深圳市凯帝五金制品有限公司座落与观澜美丽的高尔夫球场附近，厂房1500平方，员工...</td>\n      <td>无</td>\n      <td>企业规模：100-499人</td>\n      <td>企业行业：机械/制造</td>\n      <td>NaN</td>\n    </tr>\n    <tr>\n      <th>12818</th>\n      <td>招若干人</td>\n      <td>广东省-深圳 龙华区观澜街道桂花社区桂花路109号1楼</td>\n      <td>匿名</td>\n      <td>不限 ｜广东省-深圳 ｜招若干人</td>\n      <td>折弯学徒</td>\n      <td>面议</td>\n      <td>深圳市凯帝五金制品有限公司</td>\n      <td>企业简介： 深圳市凯帝五金制品有限公司座落与观澜美丽的高尔夫球场附近，厂房1500平方，员工...</td>\n      <td>无</td>\n      <td>企业规模：100-499人</td>\n      <td>企业行业：机械/制造</td>\n      <td>NaN</td>\n    </tr>\n    <tr>\n      <th>12820</th>\n      <td>招若干人</td>\n      <td>广东省-深圳 龙华区观澜街道桂花社区桂花路109号1楼</td>\n      <td>匿名</td>\n      <td>不限 ｜广东省-深圳 ｜招若干人</td>\n      <td>折弯技工</td>\n      <td>面议</td>\n      <td>深圳市凯帝五金制品有限公司</td>\n      <td>企业简介： 深圳市凯帝五金制品有限公司座落与观澜美丽的高尔夫球场附近，厂房1500平方，员工...</td>\n      <td>无</td>\n      <td>企业规模：100-499人</td>\n      <td>企业行业：机械/制造</td>\n      <td>NaN</td>\n    </tr>\n    <tr>\n      <th>12865</th>\n      <td>招若干人</td>\n      <td>广东省-深圳 龙华区观澜街道桂花社区桂花路109号1楼</td>\n      <td>匿名</td>\n      <td>不限 ｜广东省-深圳 ｜招若干人</td>\n      <td>钣金工程师</td>\n      <td>面议</td>\n      <td>深圳市凯帝五金制品有限公司</td>\n      <td>企业简介： 深圳市凯帝五金制品有限公司座落与观澜美丽的高尔夫球场附近，厂房1500平方，员工...</td>\n      <td>无</td>\n      <td>企业规模：100-499人</td>\n      <td>企业行业：机械/制造</td>\n      <td>NaN</td>\n    </tr>\n    <tr>\n      <th>12868</th>\n      <td>招若干人</td>\n      <td>广东省-深圳 龙华区观澜街道桂花社区桂花路109号1楼</td>\n      <td>匿名</td>\n      <td>不限 ｜广东省-深圳 ｜招若干人</td>\n      <td>冲压工</td>\n      <td>面议</td>\n      <td>深圳市凯帝五金制品有限公司</td>\n      <td>企业简介： 深圳市凯帝五金制品有限公司座落与观澜美丽的高尔夫球场附近，厂房1500平方，员工...</td>\n      <td>无</td>\n      <td>企业规模：100-499人</td>\n      <td>企业行业：机械/制造</td>\n      <td>NaN</td>\n    </tr>\n  </tbody>\n</table>\n<p>1173 rows × 12 columns</p>\n</div>"
     },
     "execution_count": 46,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "rows_with_nan"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-16T08:56:59.626344Z",
     "start_time": "2024-06-16T08:56:59.600343Z"
    }
   },
   "id": "f328a97ff1909a3",
   "execution_count": 46
  },
  {
   "cell_type": "code",
   "outputs": [],
   "source": [
    "# 假设combined_df是你的DataFrame\n",
    "#去掉nan值\n",
    "combined_df.fillna(\"无\", inplace=True)"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-16T08:57:13.109849800Z",
     "start_time": "2024-06-16T08:57:13.088849200Z"
    }
   },
   "id": "df2d754db9c98ba8",
   "execution_count": 47
  },
  {
   "cell_type": "code",
   "outputs": [
    {
     "data": {
      "text/plain": "Empty DataFrame\nColumns: [company_brief_address, company_detailed_address, hr_name, job_tags, job_title, job_salary, company_name, company_intro, company_status, company_size, company_type, job_description]\nIndex: []",
      "text/html": "<div>\n<style scoped>\n    .dataframe tbody tr th:only-of-type {\n        vertical-align: middle;\n    }\n\n    .dataframe tbody tr th {\n        vertical-align: top;\n    }\n\n    .dataframe thead th {\n        text-align: right;\n    }\n</style>\n<table border=\"1\" class=\"dataframe\">\n  <thead>\n    <tr style=\"text-align: right;\">\n      <th></th>\n      <th>company_brief_address</th>\n      <th>company_detailed_address</th>\n      <th>hr_name</th>\n      <th>job_tags</th>\n      <th>job_title</th>\n      <th>job_salary</th>\n      <th>company_name</th>\n      <th>company_intro</th>\n      <th>company_status</th>\n      <th>company_size</th>\n      <th>company_type</th>\n      <th>job_description</th>\n    </tr>\n  </thead>\n  <tbody>\n  </tbody>\n</table>\n</div>"
     },
     "execution_count": 48,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# 识别含有NaN值的行\n",
    "rows_with_nan = combined_df[combined_df.isnull().any(axis=1)]\n",
    "rows_with_nan"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-16T08:57:33.246419700Z",
     "start_time": "2024-06-16T08:57:33.206423200Z"
    }
   },
   "id": "ec210aff62f2c89b",
   "execution_count": 48
  },
  {
   "cell_type": "code",
   "outputs": [
    {
     "data": {
      "text/plain": "0               20-40k\n1               10-15k\n2                 薪资面议\n3           25-40k·14薪\n4                6-18k\n             ...      \n13129     10.8k-15k元/月\n13130      8.3k-25k元/月\n13131      6.7k-10k元/月\n13132    8.3k-12.5k元/月\n13133      6.7k-10k元/月\nName: job_salary, Length: 13134, dtype: object"
     },
     "execution_count": 49,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "job_salary=combined_df['job_salary']\n",
    "job_salary"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-16T08:57:58.362763900Z",
     "start_time": "2024-06-16T08:57:58.344687100Z"
    }
   },
   "id": "9413583c8847d463",
   "execution_count": 49
  },
  {
   "cell_type": "code",
   "outputs": [
    {
     "data": {
      "text/plain": "8        120-150元/天\n10       120-150元/天\n11       150-180元/天\n12       120-150元/天\n14       120-150元/天\n            ...    \n12907     45-136元/天\n12908     45-136元/天\n12957    114-227元/天\n12958    114-227元/天\n13071    135-230元/天\nName: job_salary, Length: 1958, dtype: object"
     },
     "execution_count": 60,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "pattern_internship=r'\\d+元/天'\n",
    "job_internship=job_salary[job_salary.str.contains(pattern_internship)]\n",
    "job_internship"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-16T09:20:14.585573200Z",
     "start_time": "2024-06-16T09:20:14.559567600Z"
    }
   },
   "id": "e068c770defd2d69",
   "execution_count": 60
  },
  {
   "cell_type": "code",
   "outputs": [
    {
     "data": {
      "text/plain": "0               20-40k\n1               10-15k\n3           25-40k·14薪\n4                6-18k\n5               20-50k\n             ...      \n13129     10.8k-15k元/月\n13130      8.3k-25k元/月\n13131      6.7k-10k元/月\n13132    8.3k-12.5k元/月\n13133      6.7k-10k元/月\nName: job_salary, Length: 10583, dtype: object"
     },
     "execution_count": 67,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "pattern_extract_1=r'\\b\\d{1,3}(?:-\\d{1,3})?[kK]\\b'\n",
    "job_salary_extract_1=job_salary[job_salary.str.contains(pattern_extract_1)]\n",
    "job_salary_extract_1"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-16T09:33:56.446340500Z",
     "start_time": "2024-06-16T09:33:56.416653300Z"
    }
   },
   "id": "7ad66778449cdb36",
   "execution_count": 67
  },
  {
   "cell_type": "code",
   "outputs": [],
   "source": [
    "\n",
    "# 使用~操作符取反，找到不符合上述两个条件的数据\n",
    "other_salaries = job_salary[~job_salary.str.contains(pattern_extract_1) & ~job_salary.str.contains(pattern_internship)]\n"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-16T09:33:57.674774500Z",
     "start_time": "2024-06-16T09:33:57.633263400Z"
    }
   },
   "id": "ed184c8f636b90af",
   "execution_count": 68
  },
  {
   "cell_type": "code",
   "outputs": [
    {
     "data": {
      "text/plain": "2        薪资面议\n27       薪资面议\n46       薪资面议\n47       薪资面议\n57       薪资面议\n         ... \n13109      面议\n13110      面议\n13111      面议\n13112      面议\n13113      面议\nName: job_salary, Length: 593, dtype: object"
     },
     "execution_count": 69,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "other_salaries"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-16T09:33:58.409766400Z",
     "start_time": "2024-06-16T09:33:58.379769100Z"
    }
   },
   "id": "f25e9614f0aad6b3",
   "execution_count": 69
  },
  {
   "cell_type": "code",
   "outputs": [
    {
     "data": {
      "text/plain": "company_brief_address                                                 南昌南昌县莲塘\ncompany_detailed_address                                         南昌南昌县同文教育333\nhr_name                                                                    江霞\njob_tags                                                       ['经验不限', '大专']\njob_title                                                                  教师\njob_salary                                                           15-20元/时\ncompany_name                                                              师辅通\ncompany_intro                                                               无\ncompany_status                                                              无\ncompany_size                                                            0-20人\ncompany_type                                                          培训/辅导机构\njob_description             工作周期：长期兼职\\r\\n每周工期：无要求\\r\\n工作时间：14:00-20:00\\r\\n工...\nName: 10250, dtype: object"
     },
     "execution_count": 71,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "combined_df.loc[10250]"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-16T09:35:26.639178200Z",
     "start_time": "2024-06-16T09:35:26.629176600Z"
    }
   },
   "id": "8753d59ab8656244",
   "execution_count": 71
  },
  {
   "cell_type": "code",
   "outputs": [],
   "source": [],
   "metadata": {
    "collapsed": false
   },
   "id": "56497ed3c18e9a6c"
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 2
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython2",
   "version": "2.7.6"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 5
}
